بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف
thesis
- دانشگاه تربیت معلم - تهران - دانشکده مهندسی
- author عبدالحسین صراف زاده
- adviser رضا حسینی نژاد جمشید شنبه زاده
- publication year 1392
abstract
این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در متن نیز باید مشخص باشند. الگوریتم پیشنهادی از مدل پنهان مارکوف استفاده می کند. این مدل یکی از موفق ترین روش های بازشناسی گفتار می باشد که به دلیل وجود شباهت های بسیار، در سال های اخیر در بازشناسی متون نیز مورد توجه زیادی قرار گرفته است. مدل پنهان مارکوف شامل حالات به همراه احتمال گذر بین آن هاست و در هر حالت می توان مشاهدات احتمالی مختلفی نیز داشت. برای بازشناسی متن، مشاهدات می توانند مجموعه ای از مقادیر پیکسل ها و حالات بیانگر بخش های حروف باشند. برای کوچک کردن فضای حالت ویژگی ها و در نتیجه ساده تر کردن محاسبات، در این روش از کوانتیزاسیون برداری نیز استفاده شده است که این کار با کمک خوشه بندی انجام می شود. در این پایان نامه روش های مختلف خوشه بندی نیز ارائه شده و کارایی آن ها در مسئله بازشناسی بررسی گشته و در نهایت الگوریتم خوشه بندی agglomerative مورد استفاده قرار گرفته است. در فرآیند آموزش روش ارائه شده، سیستم تعداد زیادی تصاویر متنی به همراه اطلاعات قطعه بندی آن ها در سطح کاراکتر دریافت می کند. سپس یک پنجره در راستای خط زمینه حرکت کرده و ابتدا برای حالات مختلف هریک از کاراکترها یک مدل پنهان مارکوف ایجاد می شود. در نهایت با بررسی احتمال قرارگیری حروف در کنار یکدیگر، تمامی این مدل ها به یکدیگر متصل شده و یک مدل پنهان مارکوف کلی نیز تشکیل می گردد. آموزش مدل ها در این فرآیند توسط الگوریتم baum-welch می باشد. در بخش تست، سیستم تصویر متن را دریافت کرده و با استفاده از مکانیزم پنجره ذکر شده، دنباله ای از ویژگی ها را نتیجه می دهد. در این جا نیازی به قطعه بندی نیست و تنها تشخیص محل قرارگیری خط کافی می باشد. با وارد کردن این دنباله مشاهدات به مدلی که در مرحله قبل آموزش داده شده، مدل پنهان مارکوف بهینه ترین زنجیره از حالات که بیانگر متن موجود در تصویر است، را با استفاده از الگوریتم viterbi به ما بر می گرداند. برای بررسی عملکرد این سیستم در زبان فارسی، با استفاده از چندین واژه نامه معتبر، مجموعه وسیعی از کلمات ایجاد کرده و با کنار هم قرار دادن تصادفی آن ها متون زیادی را تشکیل داده ایم. سپس تصاویر این متون را با قلم های مورد نظر تولید و ساختار مناسبی برای توصیف آن ها ایجاد نموده ایم. به منظور مقایسه نیز از مجموعه داده عربی pats استفاده شده است. برای مجموعه تصاویر توسعه داده شده نرخ بازشناسی بین 98.32 تا 100 و برای مجموعه داده pats بین 95.37 تا 100 قرار دارد.
similar resources
بازشناسی متون چاپی فارسی
برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...
15 صفحه اولمدیریت سبد مشتریان پرمشغله با استفاده از مدل پنهان مارکوف
با توجه به توسعه روزافزون مفاهیم نوین در عرصه بازاریابی نیاز به تحقیقات بیشتر در این زمینه بسیار محسوس میباشد. یکی از این موارد بحث مرتبط با مشتریان پرمشغله و مدیریت سبد این دسته از مشتریان است که تاکنون تحقیقی در این راستا صورت نگرفته است. در اینجا سعی شده است پس از ارایه یک مرور کلی از تحقیقات مرتبط با موضوع به کمک شیوه قوی مدلسازی پنهان مارکوف رفتار این دسته از مشتریان به طور دقیق ارزیابی و...
full textبازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری
Abstract Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi tex...
full textبازشناسی برخط زیر-کلمات فارسی بر اساس ویژگیهای کدهای زنجیرهای فریمن با استفاده از مدل مخفی مارکوف
در این مقاله سعی بر شناسایی برخط زیر-کلمات فارسی با استفاده از کدهای زنجیرهای فریمن و مدل مخفی مارکوف شده است. کدهای زنجیرهای با استفاده از جهت شکستگیها، ضمن حفظ جهت حرکت قلم، حجم دادهها را کاهش میدهد. از اینرو میتواند به عنوان یک روش مؤثر در شناسایی برخط زیر-کلمات بکار گرفته شود. پس از شکستن زیر-کلمه به بخشهای تشکیلدهنده (بدنه اصلی و ریزحرکات)، با استفاده از کدهای زنجیرهای فریمن، هر ...
full textMy Resources
document type: thesis
دانشگاه تربیت معلم - تهران - دانشکده مهندسی
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023